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Hi 要 QO 矩阵 代表 着 项 目 考 察 的 属性 ,反映 了 项 目的 重要 特征 ， 其 正确 性 是 影响 认 知 诊断 分 类 准确 性 的 关 
键 因素 。 研 究 O 矩阵 估计 (修正 ) 方 法 具有 重要 价值 。 首 先 ， 研 究 从 是 否 采 用 认 知 诊断 模型 将 O FEE TH (1B IE) 
分 为 基于 认 知 诊断 模型 视角 下 的 参数 化 方法 和 基于 统计 视角 下 的 非 参数 方法 。 然 后 ， 分 别 从 最 优 项 目 质量 、 
最 优 模 型 数据 拟 合 和 参数 估计 视角 对 它们 进行 分 类 介绍 , 评析 不 同方 法 的 特征 和 表现 、 区 别 与 联系 、 优 势 与 
RR. RE, 提出 几 个 未 来 研究 问题 在 复杂 测验 条 件 下 系统 比较 各 种 方法 ; 校准 知识 状态 和 参数 估计 误差 、 
结合 多 种 思路 和 方法 等 多 角度 提出 O EREHE E, 研究 多 级 评分 项 目 、 混 合 测验 模型 、 属 性 多 级 、 
属性 个 数 未 知 甚至 O 矩阵 元 素 为 连续 变量 等 条 件 下 的 O EEH ES o 

关键 词 。 认 知 诊断 模型 ,0 FEE, O 和 矩阵 估计 (修正 ) 方 法 ， 数 据 拟 合 ， 参 数 估 计 

分 类 号 B841 


1 引言 O 矩阵 或 者 依据 作答 反应 数据 来 估计 测验 Oi 
阵 。 前 者 主要 运用 质 性 分 析 方法 ， 具 有 一 定 主观 
2020 年 6 月 30 日 , 中共 中 央 全 面 深化 改革 委 N M anes 
员 会 审议 通过 了 《深化 新 时 代 教 育 评价 改革 总 体 TSE ACRT EGRET OR, iEn 
方案 》 它 明确 要 求教 育 评价 要 “改进 结果 评价 合 真实 情况 。 喻 晓 锋 、 罗 照 感 、 高 椿 雷 等 人 (2015) 
oam ee as 一 ” ”提出 先 估计 再 修正 , 通过 对 项 目 g 向 量 的 “双重 修 
强化 过 程 评价 ,探索 增值 评价 , 健全 综合 评价 ”。 ee Se 
We 订 ” 可 以 保证 测验 O 矩阵 的 标定 效率 。 事 实 上 , 无 
ae wt OP 论 在 专家 标定 0 矩阵 的 基础 上 通过 数据 分 析 进 行 
通过 考生 的 作答 反应 分 析 其 潜在 的 认 知 技能 和 心 
理 加 工 过 程 不 仅 能 提供 详细 和 全 面前 诊断 信息 ，。 PE CESENA o AUPE IRIE, 者 
这 FI: R et Ss Fen 是 可 行 的 “双重 修订 ”模式 。 由 此 可 见 , O 矩阵 估计 
3 1 Fido TÆ, 3 E ee : e 
知 诊断 评估 (cognitive diagnosis assessment, CDA) ee。 
在 新 时 代 教育 评价 改革 背景 下 将 得 到 越 来 越 广泛 "e FRL, OEPM G O RMA E 
tip 相通 的 , 二 者 的 区 别 在 于 是 否 以 预 估 的 9 矩阵 为 
O RMIT ORE SRI, 是 认 知 诊 前 握 ， 即 前 者 基于 专家 界定 的 部 分 项 目的 g 向 量 
MURS SAE am. aaran. pea 4 和 作答 反应 或 仅 基 于 作答 反应 侍 计 测验 O E, 
J oR S 而 后 者 则 对 专家 界定 的 初始 O 矩阵 进行 检验 或 修 
正确 率 (Rupp & Templin 2008; de ae iy e E 
P a os Pero 近 10 年 来 , 针对 O 矩阵 估计 (修正 ) 问 题 ， 研 
究 者 们 开展 了 深入 研究 并 提出 了 大 量 方法 。 把 握 
认 知 诊断 结果 的 准确 性 和 可 靠 性 ， 如 何 获得 准确 os ne 10 SS 
a eng rare 这 些 方法 的 思想 和 步 又， 解析 不 同方 法 之 间 的 区 
| 别 和 联系 ,厘清 它们 的 特点 .优势 与 不 足 ， 不仅 能 
MIRI EWK AONA AIUREA 县 现 O 矩阵 估计 (修正 ) 方 法 的 研究 脉络 和 发 展 方 
向 , 还 能 为 实践 者 选用 恰当 方法 提供 依据 。 因 此 ， 
ee 梳理 O 矩阵 估计 (修正 ) 方 法 具有 重要 价值 和 意义 ， 
通信 作者 : 毛 秀珍 , E-mail: maomao_wanli@163.com 也 成 为 本 文 的 核心 内 容 。 
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O 和 矩阵 是 建立 可 观察 的 作答 反应 和 不 可 观察 
的 项 目 特征 与 被 试 知 识 状态 (knowledge states, KS) 
之 间 关 系 的 桥梁 。 根 据 是 否 采 用 认 知 诊断 模型 
(cognitive diagnosis models, CDMs) 表 征 它 们 的 关 
A, 研究 将 2 和 矩阵 估计 (修正 ) 方 法 分 为 参数 化 和 
非 参数 方法 两 个 大 类 ， 见 表 1。 第 二 、 第 三 部 分 
分 别 从 最 优 项 目 区 分 度 、 模 型 数据 拟 合 和 参数 佑 
计 和 角度 进一步 对 它们 进行 梳理 、 分 类 、 介 绍 和 评 
析 ; 第 四 部 分 进行 总 结 和 展望 。 

下 文 用 N、J 和 天 分 别 表示 被 试 人 数 、 项 目 
个 数 和 测验 考察 的 属性 个 数 。i 、j 和 t 分 别 表示 
被 试 、 项 目 和 项 目 可 能 的 得 分 值 。a (&) 和 pp (pp) 
分 别 表示 真实 (估计 ) 的 KS 和 项 目 参数 ，g, 表示 项 目 
j (j=1,2,…, ) 的 属性 模式 ,gj (c=1,2,…,2* -1) 
表示 项 目 j 的 第 c 类 候选 属性 模式 。Y 和 了 分别 
表示 观察 反应 向 量 和 基于 模型 的 期 望 反应 向 量 ， 
y 表示 没有 失误 和 猜测 条 件 下 的 理想 反应 向 量 。 
Yy. Y, An, za BOK 1 ESHA j ERME, 
期 望 和 理想 反应 。 


2 参数 化 2 矩阵 估计 (修正 ) 方 法 


O 和 矩阵 与 项 目 特征 和 数据 拟 合 有 密切 关系 。 
一 般 地 , 正确 的 O 和 矩阵 应 使 项 目 区 分 度 最 高 、 模 
型 与 数据 拟 合 最 好 。 于 是 ， 从 所 有 有 限 多 种 可 能 
的 9 向 量 中 选择 使 项 目 区 分 度 最 高 或 模型 数据 拟 
合 最 好 的 属性 模式 作为 项 目 g 向 量 ， 是 早期 O FR 
阵 估计 (修正 ) 方 法 的 出 发 点 。 此 外 , 2 KARE TERRI 
可 以 视 作 未 知 参 数 ,通过 参数 估计 方法 估计 而 得 。 
2.1 最 优 项 目 区 分 度 方法 

从 所 有 可 能 的 属性 模式 中 选择 具有 最 优 项 目 
区 分 度 的 属性 模式 作为 项 目 gq 向 量 是 最 优 项 目 区 
分 度 方 法 的 核心 思想 。 这 类 方法 包括 5 法 (de la 
Torre, 2008), y 法 ( 涂 冬 波 4, 2012), ç” 法 (de la 
Torre & Chiu, 2016) 和 stepwise 法 (Ma & de la 
Torre, 2020)。 
211 项目 鉴 别 力 指数 : 5 方法 

de la Torre (2008) 根 据 鉴 别 力 指数 的 定义 ， 提 
出 选择 使 项 目 j 中 高 低 分 组 被 试 正确 作答 概率 之 
差 最 大 的 属性 模式 作为 它 的 g 向 量 , 称 为 6 方法 。 
以 DINA 模型 为 例 ， 对 项 目 j 而 言 , 首先 根据 被 
试 是 否 掌握 候选 gj 考察 的 所 有 属性 将 其 分 到 掌 
握 组 或 未 掌握 组 ; 在 此 基础 上 估计 项 目 参数 $ 和 
ĉo HAM H KIE 5;. =l- se Êe 最 后 通 


过 搜索 算法 ,将 最 大 的 6 所 对 应 的 qj, 作为 项 
J 的 9 向 量 。 

该 方法 考虑 项 目 区 分 两 个 极端 被 试 组 的 能 力 ， 
容易 推广 到 其 它 CDMs, 但 CDMs 不 同 , 被 试 分 
组 不 同 , 计算 过 程 也 有 差异 ,总体 上 ，5 方 法 简单 
DIT, 但 往往 不 能 反映 全 体 被 试 的 信息 。 于 是 , de 
la Torre 和 Chiu (2016) 提 出 全 方法 ， 以 反映 项 目 
区 分 所 有 被 试 的 能 
2.1.2 ”广义 区 分 度 指标 : ç HE 

de la Torre 和 Chiu (2016) 提 出 计算 全 体 被 试 
正确 作答 项 目 概率 Pla) 的 方差 ， 称 为 广义 区 分 
度 指标 ， 以 反映 项 目 区 分 所 有 被 试 的 能 力 ， 即 
=>" wa)[P(a)-] 。 其 中 ，w(a) 表示 被 
ik w 的 后 验 概率 ，P(&) 表示 被 试 w 的 正确 作答 
概率 ， 忆 表示 所 有 被 试 平均 的 正确 作答 概率 。 针 
对 项 目 7, oo 方法 首先 计算 gj, 下 正确 作答 概率 
的 方差 5 ， 然 后 选择 方差 占 比 ( 即 c3, / max{6%， 
Gjo G? 9 1} ) 最 大 且 考 察 属性 最 少 的 qj 作为 它 的 
gq 向 量 。 与 5 方法 相 比 ，o 方法 利用 了 更 多 信息 
且 具 有 一 般 性 ,总 体 上 对 O 矩阵 的 修正 结果 也 更 
好 (Wang et al., 2018)。 有 研究 指出 ，o? 方 法 易 受 
样本 量 影响 ， 知 样 本 量 过 小 会 大 大 降低 它 的 表现 
( 汪 大 勋 等 , 2019)。 
2.1.3 ”最 优 项 目 区 分 度 方法 的 简 评 

6 和 ?方法 都 假设 正确 q 向 量 应 该 使 项 目的 
区 分 度 最 优 ， 并 分 别 从 项 目 区 分 极端 被 试 组 和 所 
有 被 试 组 的 能 力 建 构 项 目 区 分 度 指标 。 虽 然 它们 
分 别 基 于 DINA 和 G-DINA 模型 提出 , 但 都 很 容 
易 推 广 至 其 它 CDMs。 

6 和 6 方法 对 所 有 项 目 进行 修正 , 项 目 越 多 
耗 时 越 长 。 鉴于 此 , 涂 冬 波 等 人 (2012) 提 出 先 筛选 
再 修正 的 7y 方 法。y7 方 法 首先 根据 项 目 参数 的 值 
筛选 出 可 能 存在 元 余 ( 缺 失 ) 属 性 的 项 目 ， 进 一 步 
根据 掌握 组 和 未 掌握 组 被 试 在 每 个 属性 上 掌握 概 
率 之 差 判 定 该 属性 是 否 宛 余 (缺失 )， 以 此 为 据 修 
正 项 目 gq 向 量 。DINA 模型 下 ，y 方 法 的 KS 判 准 
率 比 5 方法 更 高 ,二 者 对 O 矩阵 的 修正 效果 相当 
( 涂 冬 波 等 , 2012)。 然而 ，y 方 法 可 能 漏 掉 参数 合 
HUE q 向 量 有 误 的 情况 。 

除了 先 筛选 后 修正 的 方法 外 ,研究 者 还 运用 
不 同 搜索 算法 提高 搜索 效率 。 常 用 的 搜索 算法 有 
穷 举 搜索 算法 、 顺 序 搜 索 算法 和 逐步 搜索 算法 。 
寺 别 地 , Ma 和 de la Torre (2020) 在 多 级 评分 项 目 
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的 序列 G-DINA 模型 中 首先 基于 6? 方法 确定 第 一 
个 必要 属性 对 应 的 gq 问 量 , 然后 在 逐步 搜索 算法 
中 根据 Wald 统 计量 检验 修订 前 后 两 个 g 向量 的 模 
型 拟 合 是 否 存在 显著 差异 ， 进 而 确定 项 目 g 向 量 ， 
称 为 stepwise Pe. HP, Wald Sibi AW = 
[Rx PJ[RxV,xRT'IRxP], P, 表示 不 同属 性 模 
式 的 被 试 在 项 目 j 上 的 正确 作答 概率 矩阵 ，V ;为 
ri EE EY ETP)", ROY BR A PERE, H 
体 算 法 见 Ma 和 de la Torre (2020)。 基 于 信息 矩阵 
的 Wald 统计 量 在 认 知 诊断 模型 拟 合 、 项 目 水 平 的 
模型 拟 合 和 项 目 功能 差异 检验 中 都 有 广泛 的 研究 
与 应 用 ( 刘 彦 楼 等 , 2019; 刘 彦 楼 等 , 2016; Liu, 
Xin, et al., 2019; Liu, Andersson, et al., 2019; Liu, 
Yin, et al., 2019; Liu et al., 2016). 

此 外 , 汪 大 勋 等 人 (2019) 和 Wang 等 人 (2020) 
将 两 个 9 向 量 的 反应 似 然 比 了 = 

LYIÊQ, _) 
In 


ZXIAO，) 
4 向量。 研究 表明 ， 似 然 比 检验 方法 最 优 ， 


| 进行 x 检验 以 确定 更 拟 合 的 


Stepwise AKZ, ç 和 6 法 最 差 (Ma & de la Torre, 


2020; Wang et al., 2018; Wang et al., 2020)。 

9 和 对 方法 基于 绝对 最 优 项 目 区 分 度 指标 确 
定 9 向 量 ; y 方 法 基于 属性 区 分 度 进行 效应 量 检 
验 ; stepwise 法 和 似 然 比 检 验 重 点 探讨 搜索 算法 与 
差异 检验 量 在 O 和 矩阵 估计 (修正 ) 中 的 表现 。 事 实 
上 ,考察 其 它 区 分 度 指标 (如 优势 比 、 认 知 诊断 区 
分 度 和 属性 区 分 度 指标 )、 探 索 其 它 反 映 4 向 量 合 
理性 的 统计 检验 指标 ， 以 及 探讨 如 何 提高 搜索 算 
法 的 准确 性 和 速度 都 是 值得 研究 的 问题 。 
2.2 ”最 优 观察 反应 分 布 与 期 望 反应 分 布 的 拟 合 : 

类 方法 的 关键 是 建构 反映 观察 反应 概率 和 

io 性 或 一 致 性 指标 。S BE 
计量 (Liu et al., 2012)、 似 然 比 D? 统 计量 ( 喻 晓 锋 ， 
DER, 高 椿 雷 等 ,2015) 和 残 差 方法 (chen, 2017) 
是 这 类 方法 的 代表 。 
2.2.1 S 统计 量 方法 
该 方法 的 核心 在 于 构建 期 望 (观察 ) 正 确 作 答 
概率 分 布 矩 阵 了 wx (Pua) EP, u 表示 单个 项 目 
AIA SH AAA, TORR CR ew A IA 
属性 掌握 模式 的 被 试 正确 作答 某 个 项 目 或 某 些 项 
目 组 的 概率 ，p 矩阵 的 元 素 表 示 实 际 正确 作答 项 


tt 


目 或 项 目 组 的 人 数 比例 。 令 Pra 代表 知识 状态 的 
先 验 分 布 ， 则 理论 上 有 7T*P=p。 对 项 目 j,S 统 
计量 方法 选择 使 TP 与 p 的 欧 氏 距离 最 小 的 gj 
作为 它 的 g 向量 

注意 到 ,7 和 矩阵 的 行 数 随 项 目 个 数 的 增加 而 
极速 增加 ,计算 量 也 随 之 增 大 。 于 是 ,Liu 等 人 
COIDEN T HARE BD AL 1 阶 、2 阶 到 K+ 阶 
不 同 项 目 组 合 。 该 方法 考虑 到 项 目 与 项 目 组 合 的 
反应 , 利用 信息 多 ,要 求 样本 量 大 , 计算 量 也 随 
着 项 目 和 属性 个 数 的 增加 而 增 大 。 

S 统计 量 方法 提出 之 初 ， 备 受 欢迎 。 例 如 ， 
Xiang (2013) 将 O 矩阵 元 素 视 为 连续 变量 ,运用 S 
统计 量 方法 进行 估计 。 该 方法 通过 定义 连续 变量 
与 属性 的 关系 模型 ， 并 与 净值 (0.3) 相 比 转化 为 二 
值 计 分 2 矩阵， 但 表现 不 佳 。 又 如 ， 喻 晓 锋 、 罗 
Fe RE idee” valine pee anne 
合 估计 中 运用 S 统计 量 方法 估计 O FEM, eT 
性 地 考察 了 当 测 验 属性 个 数 界定 错误 时 该 方法 的 
KM, FEM, 杭 丹 丹 (2020) 将 S 统计 量 方法 推广 到 
多 级 计 分 项 目 , 发 现 当 0 矩阵 失误 率 较 小 (5%) 和 被 
试 足够 多 (N=4000) 时 该 方法 才 具 有 和 较 高 的 修正 率 。 
2.2.2” 似 然 比 D’ 统计 量 方法 

喻 晓 锋 、 罗 照 盛 、 高 椿 雷 等 人 (2015) 将 似 然 比 
G 统计 量 (McKinley & Mills, 1985) 应 用 于 CDMs, 
称 为 似 然 比 D? 统 计量 。 它 表达 了 观察 反应 分 布 和 
期 望 反应 分 布 的 一 致 性 ， 即 


2 _ o> Ji 
Dj =22, | i1081 l ; 


下 
( 一 8 ye l-e 
je Eje 


E 


l1- f; 
(N, =r) 108 —— (1) 
Sic "(1-g,.) s 


其 中 ，N, 、w 和 fy DIREA 1 AP 
数 、 观 察 正确 作答 项 目 7 的 人 数 和 比例 。sj. 和 gj 
分 别 表 示 DINA 模型 中 gj, 下 的 项 目 参 数 。 于 是 ， 
该 方法 选择 使 D? 最 小 的 gz 作为 项 目的 9 向 
量 。 他 们 基于 部 分 4 向 量 已 知 的 项 目 ( 称 为 基础 题 ) 
循环 修正 其 余 项 目的 g 向 量 ， 直 到 前 后 两 次 的 Q 
和 矩阵 相同 或 达到 最 大 迭代 次 数 为 止 。 结 果 表 明 ， 
该 算法 与 S 统计 量 方法 相 比 更 省 时 、 修 正 率 更 高 。 
但 是 当 样 本 量 和 基础 题 数量 较 少 时 , 该 算法 可 能 
AR WCAC, 同时 显著 降低 O 矩阵 修正 率 。 
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2.2.3 REA 

Chen (2017) 根 据 期 望 反应 分 布 和 观察 反应 分 
布 中 项 目 /与 项 目 刀 的 作答 反应 和 正确 作答 人 数 ， 
分 别 建立 了 基于 相关 的 残 差 ( 记 为  ) 和 基于 对 数 
比 的 残 差 ( 记 为 1), )， 即 

ry 3ZICor(Y,,Y)] -ZICor®,Y Nl] 2) 

ly oy (NM ogg Aiciu) 6) 
Fok, Ne AUN, 表示 在 项 目 j 和 六 上 分 别 得 t 和 
1' 分 的 实际 人 数 和 期 望 人 数 ，Z[:] 表示 皮尔 逊 相 
关系 数 的 Fisher 转换 值 。 

残 差 方法 包括 四 个 步 又 。 首 先 对 所 有 项 目 对 
的 Z 分 数 ( Zrj 或 Zlj,) 的 最 大 值 进行 显著 性 检验 ， 
初步 判定 测验 O 矩阵 是 否 存 在 错误 。 当 测验 水 平 
0 矩阵 有 误 时 ， 若 测验 水 平 的 均 方 根 ( Sr 或 ST ) 超 
过 临界 值 , 则 应 考虑 测验 属性 个 数 是 否 宛 余 或 缺 
R, 并 在 测验 水 乎 进行 修正 。 反 之 , 在 项 目 水 平 进 
行 修正 ， 并 将 项 目 水 平 中 最 大 的 几 个 均 方 根 ( 记 为 
Sr;(S1)) ) 对 应 的 项 目 作为 待 修正 项 目 集 ,最 后 , 通 
过 调整 4 向 量 前 后 Sr,(S7)) 的 变化 或 Sr,(S1)) 最 大 
值 的 变化 确定 待 修正 项 目的 g 向 量 。 结 果 表 明 ， 基 
Fr 和 7 的 两 种 策略 都 能 有 效 检 测 O 矩阵 的 错误 
(Chen et al., 2013) 并 修正 项 目 g 向 量 , 但 在 短 测验 
中 的 效果 较 差 (Chen, 2017)。 残 差 方 法 提出 的 层 层 
和 蔓 选 、 判 断 和 修正 思路 ,不 仅 考 虑 到 属性 层面 和 
项 目 水 平 的 可 能 错误 , 还 可 以 在 一 定 程度 上 提高 
修正 效率 。 
2.24 最 优 观察 反应 分 布 和 期 望 反应 分 布 的 拟 

A: 相对 拟 合 指标 方法 

-2LL、AIC 和 BIC 是 常用 的 模型 数据 拟 合 指 

PR XIF -2LL =-2IT "2 LO; Âa wa) 中 


的 wa) 而 言 ， 有 研究 采用 先 验 概 率 (Chen et al., 
2013)， 也 有 研究 采用 后 验 概率 ( 汪 大 勋 等 ，2020) 
来 计算 ,AIC 和 BIC 在 -2LL 的 基础 上 分 别 加 上 模 
型 参数 个 数 m 的 惩罚 因子 2m 和 代表 模型 参数 与 
被 坛 人 数 的 惩罚 因子 mln(N) 。 这 些 方 法 依据 候选 
qi 估计 的 项 目 参 数 计算 拟 合 指标 ,并 选择 具有 
最 优 拟 合 的 属性 模式 作为 项 目的 g 向 量 。Chen 等 
人 (2013) 和 汪 大 勋 等 人 (2020) 分 别 在 不 同 实 验 条 
件 下 考察 了 它们 在 2 矩阵 修正 中 的 表现 。 结 果 表 
明 , 无 论 模型 是 否 为 真 , BIC 在 不 同 q 向 量 错误 类 
型 中 的 表现 都 优 于 AIC 和 -2LL 方法 (Chen et al., 


2013); 对 复杂 多 级 评分 模型 ，BIC 表现 同样 优 于 
AIC 和 -2LL 方法 ( 汪 大 勋 等 , 2020)。 

AIC 和 BIC 对 复杂 模型 的 参数 个 数 和 样本 量 
进行 了 惩罚 ，Chen 等 人 (2015) 则 在 
nA? DLO, Êa pwa) 基础 上 分 别 加 上 项 


目 参数 的 L (Lasso) 惩 罚 函数 和 SCAD (Smoothly 
Clipped Absolute Deviatiom 惩 罚 函 数 ， 称 为 正则 
化 2 矩阵 佑 计 方 法 。 他 们 指出 与 石 惩 罚 函 数 相 比 ， 
SCAD 惩罚 函数 的 结果 更 优 ， 量 在 小 样本 条 件 下 
仍 有 较 高 的 估计 准确 率 。Xu 和 Shang (2018) 研 究 
表明 ， 先 运用 正则 化 ZL 惩罚 函数 方法 估计 O FER, 
然后 根据 BIC 指标 修正 q 向 量 ,能 提高 O 矩阵 估 
计 准 确 率 。 
2.2.5 “基于 数据 拟 合 方法 的 简 评 

S 统计 量 反 映 了 正确 作答 项 目 与 项 目 对 的 观 
察 概率 分 布 和 期 望 概率 分 布 的 欧 氏 距离 ， 似 然 比 
D? 统计 量 则 是 对 所 有 被 试 组 的 不 同 作答 反应 的 
观察 概率 分 布 与 期 望 概率 分 布 之 比 的 对 数 加 权 平 
均 之 和 。 类 似 地 ，Kang 等 人 (2019) 和 杨 亚 坤 等 人 
(2020) 考 察 了 近似 误差 均 方 根 RMSEA, = 


2 
[Enz o|r A 的 表现 ， 发 现 
jl 
RMSEA 方法 能 有 效 地 估计 O 和 矩阵 ， 短 测验 中 的 


修正 效果 也 优 于 5 法 和 非 参数 欧 氏 距离 法 。Ya 和 
Cheng (2020) 还 提出 加 权 的 残 差 指标 R= 


2 
Tiisa mt ， 研 究 表明 该 方法 比 S 统计 
量 方法 更 简单 ， 修正 结 果 更 好 。 

S 统计 量 从 项 目 总 体 上 判断 所 有 被 试 组 的 观 
察 分 布 与 期 望 分 布 的 差异 ; 似 然 比 D? 统 计量、 
RMSEA 和 加 权 残 差 R 方法 从 被 试 总 体 判 断 项 目 
7 的 观察 分 布 与 期 望 分 布 的 差异 ; 而 残 差 方 法 则 
是 基于 项 目 对 的 相关 或 对 数 比 的 绝对 值 误差 。 虽 
然 似 然 比 D? 统计 量 基于 DNA 模型 提出 ， 仍 可 以 
推广 到 其 它 CDMs。 总 体 上 , 绝对 拟 合 指标 的 方法 
不 受 CDMs 的 限制 ， 能 较 好 地 估计 (修正 )2 矩阵 。 

与 绝对 拟 合 指标 方法 相 比 ， 相 对 拟 合 指标 方 
法 计算 更 简单 ， 在 实践 中 表现 较 好 ， 应 用 广泛 ( 汪 
Ki 等 , 2019)。 特 别 地 ， 只 有 当 项 目 参 数 个 数 随 
qx PMA TART, AIC, BIC 与 -2LL 才 不 同 , 否 
则 它们 是 等 价 的 。 今 后 可 以 探索 建立 认 知 诊断 模 


| 
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型 数据 拟 合 指标 或 者 考察 其 它 拟 合 统计 量 (如 M, 
和 7, 统计 量 ) 在 O 矩阵 估计 (修正 ) 中 的 表现 。 另 外 ， 
正则 化 方法 根据 模型 拟 合 程度 和 模型 复杂 性 探索 
潜在 维 数 ,， 适用 于 测验 考察 的 属性 个 数 未 知 的 情 
bi, 为 估计 O 矩阵 提出 了 新 的 情境 与 思路 。 
2.3 ”基于 参数 估计 的 方法 

将 QO 和 矩阵 元 素 视 为 待 佑 参数 进行 估计 仍 是 一 
种 有 效 的 2 矩阵 估计 (修正 ) 方 法 。 目 前 研究 主要 
考察 了 极 大 似 然 估计 人 (maximum likelihood 
estimation，MLE) 、 边 际 极 大 似 然 估计 人 (marginal 
maximum likelihood estimation, MMLE) 方 法 (Wang 
et al., 2018) 和 贝 叶 斯 估计 (Chung, 2019; Chen et al., 
2018; DeCarlo, 2012; Templin & Henson, 2006) 在 
O 矩阵 估计 (修正 ) 方 面 的 表现 。 
2.3.1 MLE #1 MMLE 方法 
MLE 和 MMLE 都 采用 EM 算法 循环 估计 KS、 
BA O 矩阵， 直到 收敛 。 具 体 地 ,在 第 hh 次 迭代 
中 ,首先 基于 OO? 和 作答 反应 矩阵 估计 和 


阵 中 除 不 确定 元 素 外 其 余 元 素 都 正确 时 ，EAP 方 
法 能 准确 估计 所 有 不 确定 元 素 (Templin & Henson, 
2006), 但 当 其 余 元 素 有 错时 会 显著 降低 EAP 的 
修正 率 (DeCarlo, 2012)。 

其 次 , MCMC 是 基于 后 验 分 布 进行 抽样 获取 
参数 估计 值 的 方法 。Chen 等 人 (2018) 和 Chung 
(2019) 的 研究 表明 , MCMC 方法 能 有 效 估 计 O E 
阵 , 但 易 受 样本 量 和 属性 间 相 关 的 影响 。 特 别 地 ， 
MCMC 方法 中 运用 Metropolis Hastings (MH) 或 约 
束 性 吉 布 斯 (Constrained Gibbs，CGibbs) 抽 样 比 运 
用 吉 布 斯 (Gibbs) 抽 样 对 O 矩阵 估计 更 准确 ， 且 
CGibbs 抽样 在 小 样本 条 件 下 的 结果 也 比较 好 
(Chen et al，2018)。 此 外 它们 均 优 于 Chen 等 人 
(2015) 的 正则 化 惩罚 方法 。 

2.3.3 ”基于 参数 估计 方法 的 简 评 

MLE 和 MMLE 方法 都 是 常用 的 参数 估计 方 
法 ,简单 易 懂 , 但 多 次 使 用 EM 算法 往往 比较 耗 
时 。 贝 叶 斯 参数 估计 方法 基于 先 验 分 布 获 取 待 佑 


a” 。 在 此 基础 上 , MLE 和 MMLE 方法 分 别 计算 似 
LEN AE TS EEOC 


PA BRM MLE |A” a EELO, 
B” q Wa Y BO, GD) 。 接 下 来 分 别 选择 使 L 


或 ML 取 最 大 值 的 属性 模式 作为 项 目地 的 4 向 
量 。 两 者 的 区 别 在 于 是 否 利用 了 KS 的 后 验 分 布 
fA. BARA, MLE 倾向 于 保留 正确 的 9 向量。 
总 体 上 , MMLE 方法 优 于 MLE。 它 们 均 优 于 5 、y 
和 方法 (Wang et al., 2018). 
2.3.2 ” 贝 叶 斯 方法 

2 和 矩阵 估计 (修正 ) 中 常用 的 贝 叶 斯 方法 有 期 
望 后 验 估计 (expected a posteriori，EAP) 和 马尔 科 
夫 链 蒙特 卡 洛 (Markov Chain Monte Carlo, MCMC) 
方法 ,首先 , Templin 和 Henson (2006) 以 及 DeCarlo 
(2012) 在 不 同 条 件 下 运用 了 EAP 方法 修正 O 矩阵 
元 素 。 他 们 令 O 矩阵 中 不 确定 元 素 qy 取 值 为 1 
的 概率 为 Plar =D ， 并 假设 它 服 从 Beta(a,b) 的 先 
验 分 布 。 当 从 参数 为 gx =1) 的 伯 努 利 分 布 中 随 
机 抽样 得 到 Gj 时 ， 有 Plar = 1G.) ~ Beta(a + 
Geb t+1-Gy), TÆ, Ia BBW E(P(4 = 
Dli) =A 。 对 不 同 Gg 的 后 验 期 望 求 加 权 
at+b+l 


平均 值 后 再 取 整 确定 gj 的 值 ,结果 表明 ， 当 O Hi 


a)» 


参数 的 后 验 分 布 , 然后 用 后 验 分 布 的 均值 或 样本 
均值 作为 估计 值 。Templin 和 Henson (2006) 以 及 
DeCarlo (2012) 提 出 的 EAP 方法 耗 时 短 , 但 需要 
预先 指定 O 矩阵 的 不 确定 元 素 , 限制 了 其 使 用 范 
Hil, Chen 等 人 (2018) 和 Chung (2019) 提 出 的 
MCMC 方法 在 多 种 实验 条 件 下 的 表现 较 好 , 但 随 
着 KK 的 增加 , 需要 更 长 的 链 才 能 收敛 ,总 体 上 ， 基 
于 参数 估计 的 方法 是 一 类 重要 的 O 矩阵 估计 ( 修 
正 ) 方 法 。 事实 上 ,这 类 方法 常常 需要 对 项 目 参 数 ， 
KS 与 和 矩阵 进行 联合 估计 ， 而 它们 的 估计 精度 又 
相互 影响 。 于 是 ， 如 何 表 征 它们 的 估计 误差 、 如 
何在 估计 过 程 中 结合 估计 误差 都 是 参数 估计 方法 
中 有 价值 的 研究 问题 。 


3 非 参数 O 矩阵 估计 (修正 ) 方 法 


非 参 数 方法 不 依赖 CDMSs， 也 不 运用 参数 化 
方法 分 析 项 目 和 被 试 特征 。 与 参数 化 方法 相 比 ， 
非 参 数 2 和 矩阵 佑 计 ( 修 正 ) 方 法 可 利用 的 信息 更 少 。 
非 参 数 情境 下 ， 研 究 者 们 主要 基于 统计 分 析 视 角 ， 
通过 最 小 观察 反应 向 量 和 理想 反应 向 量 的 距离 、 
分 析 异 常 作答 反 应 或 视 为 因素 结构 进行 因素 分 析 
研究 O 矩阵 估计 (修正 ) 问 题 。 

3.1 最 小 观察 反应 向 量 与 理想 反应 向 量 距 离 的 
方法 

这 类 方法 首先 运用 非 参 数 认 知 诊断 方法 分 析 
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被 试 的 KS， 并 据 此 计算 被 试 i 在 项 目 j 候选 gj。 
下 的 理想 反应 wj。 ， 进 而 获得 所 有 被 试 观察 反应 
小 
氏 


Y, 与 理想 反应 的 距离 4， 最 后 选择 使 4 最 
的 属性 模式 作为 项 目 j 的 g 向 量 。4 可 采用 欧 
距离 (一 me)? (Barnes, 2010; Chiu, 2013; 杭 


PEPE, 2020) 、 海 明 距离 DO" IO; + ny) CEKK, Bi 
旭 亮 ， 韩 雨 婷 等 ，2018) 或 曼哈顿 距离 


ELIE -e| ( 刘 芯 伶 ，2020) 来 计算 。 不 难 发 现 ， 
它们 在 二 级 评分 项 目下 是 等 价 的 。 其 中 ，Barnes 
(2010) 将 q 向 量 作为 连续 变量 ， 以 0.1 为 间隔 变化 
O 矩阵 元 素 的 值 ， 当 欧 氏 距离 降 至 预 设 标准 时 获得 
O FEM, 但 该 方法 判 准 率 不 高 ，Chiu (2013) 和 汪 大 
勋 、 高 旭 亮 、 韩 雨 婷 等 人 (2018)、 杭 丹 丹 (2020) 和 刘 
芯 伶 (2020) 分 别 在 二 级 和 多 级 评分 项 目 中 考察 这 些 
距离 的 表现 。 结 果 表明 , 样本 容量 、KS 的 估计 精度 
和 基础 题 的 数量 都 是 影响 这 类 方法 的 重要 因素 。 

除 将 KS 与 qj 对比 获得 无 猜测 无 失误 的 理想 
反应 外 , 汪 文 义 等 人 (2018) 提 出 应 基于 被 试 观察 
反应 获得 该 被 试 的 理想 反应 。 具 体 地 ， 该 方法 首 
先 确定 qj. FA PTS REE R 中 哪些 列 通过 布尔 “或 ” 
运算 而 来 ， 然 后 根据 被 试 在 R 阵 中 这 些 列 所 对 应 
的 项 目 上 的 观察 反应 进行 布尔 “与 ”运算 获得 其 在 
4 上 的 理想 反应 ， 记 为 7j 。 结 果 表明 ， 在 非 参数 
欧 氏 距离 判别 法 中 运用 这 种 方法 获取 理想 反应 时 ， 
当 可 达 阵 及 的 项 目 参 数 小 于 0.2， 待 标 项 目的 参数 
小 于 0.3 时 , O 矩阵 的 元 素 返 真 率 达 0.9 以 上 。 运 
用 该 方法 获取 理想 反应 需要 分 析 属 性 层级 结构 并 
以 RR 阵 为 基础 ,遗憾 的 是 , 研究 者 并 未 比较 wj. 与 
N 两 种 理想 反应 的 优 劣 。 
3.2 ”最 小 异常 反应 指标 方法 

借鉴 属性 层级 一 致 性 指标 (hierarchy consistency 
index, HCI) (Cui, 2007) 的 思想 , YEAR. 、 高 旭 亮 、 
化 艳 等 人 (2018) 构 建 了 项 目 一 致 性 指标 (item 
consistency criterion，ICC)， 用 于 表示 对 gz 而 言 ， 
具有 父 级 、 子 级 和 同 级 关系 的 项 目 对 间作 答 反应 
的 一 致 性 。ICC 计算 公式 如 下 : 
DM es, Xj) + Dra, Xp (xy) + 

M; 
> hes, (CA + X01 E), 
M, 


根据 属性 向 量 的 包含 关系 ,可 得 项 目 7 在 


ICC=1 


(4) 


4 下 的 子 级 、 父 级 和 同 级 项 目 集合 S。。、Sj 和 
Shes HE x。、xj 入 表示 对 应 集合 的 项 目 反 
Mo ICC 考虑 了 三 种 异常 反应 模式 : WA j ks 
对 但 在 子 级 项 目 上 答 错 ， 即 xiQ -xs); WA jE 
答 错 但 在 父 级 项 目 上 答对 ; 项 目 ;上 答对 ( 错 ) 但 
在 同 级 项 目 上 答 错 (对 )。 Mj。 表示 比较 的 总 次 数 。 

实验 表明 ， 当 基础 题 大 于 8 个 时 , ICC 方法 的 
估计 成 功率 接近 100%。 总体 上 , 它 在 所 有 实验 条 
件 下 均 能 较 好 地 估计 O 矩阵, 但 不 容易 区 分 考察 
KK 个 和 K-1 个 属性 的 项 目 ( 汪 大 勋 ， 高 旭 亮 ， 蔡 艳 
等 , 2018)。 随 后 ， 刘 芯 伶 (2020) 将 ICC 方法 推广 至 
多 级 计 分 项 目 , 发 现 其 对 O 和 矩阵 的 修正 效果 不 及 
多 级 计 分 的 曼哈顿 距离 方法 和 stepwise 方法 。 此 
bh, Wang 等 人 (2018) 假 设 w 类 被 试 的 答对 比例 高 
于 答 错 比例 , We, 应 属于 w WER, RZ, q; 属 
Fa 的 补 集 ， 提出 了 通过 集合 交 运 算 和 差 运 算 来 
修正 0 和 矩阵 的 交叉 方法 (intersection and difference, 
ID)。 结 果 表 明 ， 当 N 较 大 时 , ID 方法 能 较 好 地 识 
别 和 修正 错误 的 g 向 量 , 优 于 9 法 、 欧 氏 距 离 法 
和 MLE 方法 。ICC 和 ID 方法 都 突破 了 非 参 数 距 
离 的 整体 分 析 思 想 ， 试 图 结合 项 目的 反应 过 程 、 
项 目 与 被 试 的 交互 分 析 9 向 量 , W OE 
正 ) 提 供 了 新 的 思路 和 方法 。 
3.3 ”因素 分 析 方 法 

Close (2012) 和 汪 文 义 等 人 (2015) 都 提出 应 用 
因素 分 析 方 法 探索 项 目 与 属性 的 结构 。 前 者 对 主 
成 分 分 析 法 获得 的 成 分 间 相 关系 数 矩 阵 进行 分 析 
获得 O FER; 后 者 对 项 目 对 的 四 分 相关 和 矩阵 进行 
探索 性 因素 分 析 得 到 初始 CO 矩阵 ， 然 后 运用 MLE 
或 ID 方法 对 初始 0 和 矩阵 进行 修正 ,结果 表明 ， 基 
于 四 分 相关 和 矩阵 的 方法 在 样本 量 较 小 和 参数 较 大 
的 情况 下 均 能 有 效 估计 2 矩阵 。 鉴 于 猜测 和 失误 
会 带 来 反应 误差 进而 影响 四 分 相关 和 矩阵 ， 汪 文 义 
等 人 (2020) 通 过 极端 高 低 分 组 估计 s、g， 并 结合 观 
察 反 应 计算 各 类 期 望 反应 的 人 数 ,改进 四 分 相关 
和 矩阵 的 计算 ， 进 而 提高 了 2 矩阵 估计 的 准确 性 。 
3.4 ” 非 参 数 方法 的 简 评 

上 述 三 类 非 参数 方法 本 质 上 也 是 分 布 拟 合 和 
参数 估计 方法 。 首 先 ， 基于 CDMs 的 参数 化 方法 
分 析 实 际 作 答 反 应 概率 分 布 和 期 望 反 应 概率 分 布 
间 的 拟 合 情 况 ; 基于 统计 分 析 的 非 参 数 方法 通过 
求 离散 的 观察 反应 向 量 与 理想 反应 向 量 间 的 距离 
或 异常 反应 指标 来 表达 观察 反应 和 理想 反应 间 的 
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拟 合 程度 。 其 次 ,参数 化 方法 中 将 0 EWER 
知 模型 参数 进行 估计 ; 而 非 参 数 方法 则 基于 大 量 
反应 数据 , 将 2 矩阵 元 素 视 作 项 目 与 潜在 属性 之 
间 的 因子 结构 进行 因素 分 析 , 实质 上 是 对 因子 结 
构 的 估计 。 再 次 , 大 部 分 非 参数 方法 主要 适用 于 
二 级 评分 项 目 ,也 没有 与 其 它 方法 进行 比较 (如 
Chiu, 2013; 汪 大 勋 ， 高 旭 亮 ， 韩 雨 婷 等 ，2018; 


前 研究 一 方面 基于 CDMSs， 从 最 优 项 目 区 分 度 模 
型 数据 拟 合 和 参数 估计 视角 提出 许多 参数 化 0 矩 
阵 估计 (修正 ) 方 法 ; 另 一 方面 基于 统计 分 析 ， 依 
据 最 小 观察 反应 向 量 和 理想 反应 向 量 距离 、 最 小 
异常 反应 指标 和 因素 分 析 提 出 多 种 非 参 数 O 矩阵 
估计 (修正 ) 方 法 。 然 而， 当前 研究 还 缺乏 对 已 有 方 
法 进行 系统 深入 的 比较 、 复 杂 测验 情景 的 研究 与 


汪 文 义 等 , 2018)。 因 此 , 今后 可 以 考察 其 它 距 离 
判别 法 (如 兰 氏 距离 或 杰 卡 德 距 离 )、 也 可 以 开发 非 
参 项 目 特征 指标 、 建 构 分 布 拟 合 特征 进一步 探索 
更 多 适用 于 短 测验 和 小 样本 的 非 参 数 O 矩阵 估计 
(修正 ) 方 法 。 


4 研究 展望 


O 矩阵 反映 了 项 目 特征 ,其 正确 性 决定 着 认 
知 诊断 结果 的 准确 性 。 它 是 认 知 诊断 微观 评 佑 的 
基础 ， 在 认 知 诊断 中 具有 举足轻重 的 作用 。 本 文 
通过 梳理 国内 外 相关 研究 ,探讨 0 矩阵 估计 (修正 ) 
方法 的 分 类 ， 从 而 明晰 相关 研究 的 发 展 脉络 。 在 
此 基础 上 ， 详 细 介绍 了 各 种 方法 的 思路 和 步骤 ， 
分 析 了 它们 的 特点 、 联 系 和 区 别 。 总 体 上 ， 当 


应 用 , 未 来 还 有 待 针对 多 种 不 同 测验 条 件 多 角度 
开发 O 矩阵 估计 (修正 ) 方 法 。 
4.1 系统 比较 O 矩阵 估计 (修正 ) 方 法 

目前 ， 大 部 分 研究 基于 模拟 实验 对 相同 类 别 
的 方法 进行 比较 ， 较 少 对 不 同类 别 的 方法 进行 交 
又 比较 ,而 且 多 集中 在 5 、e”、 非 参数 欧 氏 距离 、 
RMSEA .MLE 和 MMLE 方 法 间 的 比较 (Kang et al., 
2019; Wang et al., 2018)。 因 此 , 今后 有 必要 对 不 
同类 方法 进行 系统 比较 ; 另外 ,复杂 测验 条 件 的 
研究 不 多 。 今后 应 全 面 考察 项 目 质量 、 被 试 特征 、 
测验 条 件 对 各 方法 的 影响 ， 以 期 为 O 和 矩阵 估计 ( 修 
正 ) 方 法 的 实践 应 用 提供 方法 、 技 术 支 持 与 实验 证 
据 。 此外， 当前 研究 以 模拟 实验 为 主 ,还 应 在 实际 
反应 数据 中 考察 这 些 方法 的 表现 。 


表 1 2 和 矩阵 估计 (修正 ) 方 法 分 类 


分 类 标准 特点 方法 实验 目的 
参数 化 ”最 优 项 目 特征 项 目 区 分 度 Ov, ç HE. stepwise 法 修正 
方法 属性 区 分 度 7 法 修正 
最 优 模型 绝对 拟 合 指标 S 统计 量 、 多 级 计 分 的 S 统计 量 方法 修正 
数据 拟 合 非 线性 惩罚 估计 法 估计 
RMSEA 法 、 加 权 残 差 了 法 、 残 差 方 法 修正 
似 然 D2 统计 量 方法 估计 
相对 拟 合 指标 -2LL、AIC、BIC 方法 修正 
正则 化 极 大 似 然 估计 方法 估计 
TS 法 、LR-S 法 、LR-E 法 估计 
参数 估计 基于 EM 算法 MLE 和 MMLE 方法 修正 
基于 贝 叶 斯 的 方法 EAP 方法 修正 
MCMC 方法 hit 
非 参数 ”最 小 观察 反应 与 ” 依据 欧 氏 距离 、 海 明 距 离 、 欧 氏 距离 法 、 多 级 计 分 的 欧 氏 距离 法 修正 
方法 ”理想 反应 的 距离 ”曼哈顿 距离 海 明 距离 方法 修正 
曼哈顿 距离 方法 it 
最 小 异常 依据 被 试 在 父 级 、 子 级 和 同 级 项 目 ” ICC 法 估计 
反应 指标 上 的 反应 多 级 计 分 的 ICC 法 修正 
依据 KS 与 项 目 反 应 关系 ID 法 修正 
因素 分 析 将 O 和 矩阵 元 素 视 作 项 目 与 潜在 属性 | 主 成 分 分 析 法 估计 
间 的 因子 结构 四 分 相关 矩阵 法 iit 
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4.2 ”多 角度 研究 0 矩阵 估计 (修正 ) 方 法 

无 论 通过 最 优 项 目 特征 、 模 型 数据 拟 合 还 是 
参数 估计 获取 O FEM, ABET ABB. KS 4 
准确 的 ,事实 上 , 它们 与 O 矩阵 估计 (修正 ) 是 紧密 
相连 的 统一 体 ， 彼 此 相互 影响 估计 精度 。 因 此 ， 如 
何 引 入 项 目 参 数 与 KS 的 估计 误差 以 提高 O 和 矩阵 
估计 精度 具有 重要 意义 。 另 外 , 大 部 分 研究 以 
DINA 模型 .融合 模型 或 G-DINA 模型 为 基础 ， 在 
一 定 程度 上 限制 了 方法 的 使 用 条 件 。 于 是 , 今后 
应 基于 更 一 般 的 认 知 诊断 模型 、 反 应 时 模型 和 高 
阶 认 知 诊断 模型 等 复杂 模型 探索 已 有 方法 的 特点 
或 提出 新 方法 。 最 后 ,开发 项 目 特征 指标 、 建 构 
数据 拟 合 指标 、 利 用 反应 过 程 信息 、 结 合 多 种 思 
路 和 方法 或 提出 新 的 研究 视角 都 是 深入 研究 O FE 
阵 估计 (修正 ) 方 法 可 行 的 思路 。 
4.3 ”探讨 不 同 条 件 下 的 0 矩阵 估计 (修正 ) 方 法 

随 着 考试 和 评价 方式 的 多 样 化 , 测验 形式 越 
KRET, 测验 条 件 越 来 越 复 杂 。 未 来 研究 应 关 
注 多 级 评分 项 目 、 混 合 测验 模型 、 属 性 多 级 、 属 
性 个 数 未 知 甚至 0O 矩 阵 元 素 为 连续 变量 时 O 矩阵 
的 估计 (修正 ) 方 法 。 探 索 如 何 将 2 矩阵 估计 (修正 ) 
方法 运用 到 在 线 标定 中 ,探讨 联合 标定 O 矩阵 和 
项 目 参数 也 是 今后 研究 的 重要 方向 。 
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Q-matrix estimation (validation) methods for cognitive diagnosis 


LI Jia, MAO Xiuzhen, ZHANG Xueqin 
(Institute of Educational Sichuan Normal University, Chengdu 610066, China) 


Abstract: The Q-matrix, which represents important item characteristics by mapping attributes to items has 
been proved to be the core factor affecting the accuracy of cognitive diagnostic classification. It is of great 
value to study the methods of Q-matrix estimation (validation). First, the existing methods of Q-matrix 
estimation and validation are classified into 1) parameterized methods in the CDM perspective, including 
item differentiation, model-data fit index and parameter estimation; and 2) non-parametric methods in the 
statistical perspective, including the distance between observed and expected response vector, abnormal 
responses index and factor analysis. Then, these methods are introduced in terms of differences and relations, 
characteristics and performance. The advantages and disadvantages of each method are commented. At last, 
several future research directions are proposed. It is necessary to compare the Q-matrix estimation 
(validation) methods systematically under complex test conditions. It is also of vital importance to propose 
Q-matrix estimation (validation) methods by combining multiple thoughts and ways based on the calibration 
of knowledge state and parameter estimation error. It is meaningful to further study the Q-matrix estimation 
(validation) methods for polytomous scoring items, mixed test models, polytomous scoring attributes, 
unknown number of attributes and even continuous Q-matrix. 
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